09. 练习:目标和奖励

练习:目标和奖励

到目前为止,你已经见过一个如何将智能体的目标构建为最大化预期累积奖励的示例。在这道练习中,你将研究另外几个示例。

来源:维基百科

来源:维基百科

逃脱迷宫

假设有一个智能体想要学会逃脱迷宫。哪些奖励信号将鼓励智能体尽快逃脱迷宫?请选中所有适用项。

SOLUTION:
  • 智能体待在迷宫中的每个时间步,奖励都是 -1。智能体逃脱后,这个阶段结束。
  • 智能体待在迷宫中的每个时间步,奖励都是 -1。智能体逃脱后,获得奖励 +10,并且这个阶段结束。

来源:维基百科

来源:维基百科

‘假设有一个智能体想要玩棋类游戏(例如双陆棋、象棋或跳棋)。哪些奖励信号将鼓励智能体赢得游戏?请选中所有适用项。'

SOLUTION:
  • 智能体仅在游戏结束时获得奖励;如果获胜,则获得奖励 +1,如果失败了,则获得奖励 -1,如果持平,则获得奖励 0。
  • 智能体仅在游戏结束时获得奖励,如果获胜,获得奖励 +10,如果失败,获得奖励 -10,如果持平,获得奖励 0。

假设有一个智能体想要使她头上的碟子保持平衡。哪些奖励信号将鼓励智能体尽量使碟子保持平衡?请选中所有适用项。

SOLUTION:
  • 在每个时间步,当智能体使头上的碟子保持平衡时,奖励是 +1。如果碟子掉下来了,这一阶段结束。